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摘 要 : 新 起 的 智能 交通 系统 在 改善 交通 流量 ， 优 化 燃油 效率 ， 减 少 延 误 和 提高 整体 驾驶 经 验方 面 有 望 发 挥 重要 作 
骨 。 现 今 ， 交 通 拥堵 是 困扰 人 类 的 的 一 个 极其 严重 的 问题 ， 特 别 是 一 些 城 市 交通 密集 的 十 字 路 口 处 可 能 会 更 加 的 严 
重 。 对 信号 控制 系统 的 奖励 机 制 进行 了 改进 ， 将 所 有 路 口 共 享 奖励 的 机 制 改进 为 每 个 交叉 口 共 享 唯一 的 奖励 ， 并 且 
通过 密集 采样 策略 与 多 路 口 信号 控制 相 结 合 的 方式 ， 运 用 时 下 热门 的 深度 强化 学 习 来 解决 交通 信号 灯 配 时 间 题 。 份 
真实 验 都 是 基于 现在 国际 主流 的 交通 模拟 软件 (SUMO) 完 成 ， 从 实验 结果 表明 ， 改 进 后 的 深度 强化 学 习 多 路 口 信号 
控制 方法 相 较 于 传统 强化 学 习 方法 控制 效果 更 佳 。 
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Multi-junction signal control optimization based on deep reinforcement learning 


Zhao Chun!, Dong Xiaoming!', Ren Yiying? 
(1. School of Computer & Information, Anqging Normal University Anhui 246000, China; 2. Schoo!l of electronic engineering 
& intelligent manufacturing, Angqing Normal University Anhui 246000, China) 


Abstract: The new intelligent transportation system plays an important role in improving traffic flow, optimizing fuel 
efficiency, reducing delays and improving the overall driving experience. Nowadays, traffic congestion is a very serious 
problem that disturbs human beings, especially the intersection with dense traffic in some cities may be more serious. Improves 
the reward mechanism of signal control system, the reward mechanism of all intersections to each intersection sharing a unique 
reward, and through the combination of intensive sampling strategy and multi-intersection signal control, using the popular 
deep reinforcement learning to solve the traffic signal timing problem. Simulation experiments are based on the current 
international mainstream traffic simulation software (SUMO) . The experimental results show that the improved deep 
reinforcement learning multi-junction signal control method has better control effect than the traditional reinforcement 
learning method. 

Key words: intelligent transportation system; deep reinforcement learning; traffic flow; multi-junction signal control 


0 引言 习 ， 并 且 通 常 只 使 用 线性 函数 来 估计 0 值 ， 而 且 由 于 当时 强 
本 化 学 习 的 技术 限制 ， 在 状态 空间 定义 中 往往 采用 排队 车 辆 数 

随 着 机 动车 数量 的 不 断 增长 ， 交 通 拥堵 成 为 了 人 类 所 面 ” 量 以 及 交通 流量 等 简单 类 型 的 数据 ， 然 而 交通 道路 系统 的 复 
俐 的 一 个 极其 复杂 和 令 人 烦恼 的 问题 ， 特 别 是 在 一 些 交 通 复 。 杂 性 往往 无 法 通过 这 些 信息 得 到 完整 的 呈现 出 来 ， 这 就 导致 
杂 的 大 都 市 尤为 严重 趾 。 一 般 传统 交通 信号 的 控制 时 间 固 定 ， 了 强化 学 习 无 法 在 交通 信号 控制 中 发 挥 出 最 佳 的 效果 。Balaji 
导致 绿灯 阶段 存在 不 必要 的 等 待 ， 造 成 了 极 大 的 资源 浪费 。 等 人 四 将 传统 Q 学 习 算 法 与 交通 信号 控制 相 结 合 ， 验 证 了 该 


姑 此 通过 基于 时 下 热门 的 深度 强化 学 习 的 多 路 口交 通信 号 控 ” 算法 运用 在 交通 信号 控制 问题 上 的 有 效 性 。 但 是 运用 传统 的 
制 ， 能 够 很 好 的 缓解 交通 拥堵 压力 ， 减 少 交通 事故 ， 从 而 提 ””Q 学 习 算法 ， 可 能 会 使 行为 空间 过 大 ， 最 终 导致 维度 爆炸 的 
高 系统 的 效率 化 和 合理 化 。 情况 。 伴 随 着 强化 学 习 和 深度 学 习 技术 的 发 展 ， 有 学 者 提出 

传统 的 马尔 可 夫 决 策 过 程 和 强化 学 习 受 限于 可 扩展 性 差 ”将 它们 结合 在 一 起 作为 深度 强化 学 习 方法 来 估计 Q 值 。Li 等 
这 一 特点 ， 也 就 导致 了 状态 空间 的 爆炸 。 强 化 学 习 是 一 种 自 ”人 多 采用 了 深度 强化 学 习 技 术 中 对 单 交 叉 口 控制 问题 进行 ] 
适应 控制 策略 ， 通 过 其 中 一 个 或 多 个 Agent 自主 学 习 如 何 利 研究 , 并 且 作 出 了 改进 。 LEE 等 人 [将 卷 积 神经 网 络 CNN 与 


用 agent 和 环境 本 身 之 间 的 交互 产生 的 经 验 来 解决 环境 中 的 强化 学 习 算 法 中 的 Q 学 习 算 法 相 结 合 提 出 了 DQN 算法 。 该 
任务 中。 早期 的 交通 信号 控制 极其 依赖 手动 进行 特征 提取 ， 算法 利用 经 验 回放 机 制 打 破 了 样本 序列 的 相关 性 并 提高 了 学 
所 以 导致 了 需要 投入 极 大 的 人 力 资源 ， 而 且 状 态 容 易 出 现 变 ” 习 效 率 。 
动 ,丢失 最 主要 的 状态 信息 ,传统 的 Q 学习 由 Watkins 在 1989 现今 不 断 发 展 的 车 载 通信 技术 为 车 辆 的 位 置 和 速度 提供 
年 提出 ， 是 一 种 无 模型 的 在 线 强 化 学 习 算 法 Bl,Q 学 习 中 每 个 了 更 细致 的 关键 能 力 。 这 样 就 可 以 通过 全 面 的 实时 信息 与 边 
时 间 短 的 绿灯 时 长 ， 当 繁忙 度 上 升 时 ， 则 给 此 相位 分 配 的 绿 ” 缘 云 计算 相 结 合 的 方法 ， 使 用 更 灵活 的 交通 灯 控 制 政 策 有 效 
灯 时 长 应 当 相应 增多 。 而 当 处 于 某 一 交通 状态 时 ， 为 其 配置 地 改善 流量 ， 从 长 远 角 度 来 分 析 ， 可 以 通过 直接 驱动 全 自动 
过 高 或 者 过 低 的 相位 绿灯 时 间 是 非常 不 合理 的 。EL-Tantawy ” 驾驶 场景 。 虽然 这 种 情况 潜在 的 好 处 是 巨大 的 ， 但 是 面临 的 
等 人 四 总 结 了 1997 年 至 2010 年 使 用 强化 学 习 来 解决 交通 信 技术 挑战 也 是 巨大 的 。 而 且 从 内 在 复杂 性 、 地 理 范 转 

号 控制 问题 的 方法 ,当时 的 强化 学 习 技术 仅 限于 表格 型 Q 学 数量 来 看 ， 这 种 控制 系统 也 是 前 所 未 有 的 规模 参与 ， 
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录用 定稿 赵 纯 ， 


场景 中 的 交通 信号 配 时 常常 是 分 布 的 ` 混 杂 的 、 难 以 预测 的 ， 
想 要 突破 这 种 情况 ， 就 必须 引入 深度 强化 学 习 的 概念 ， 深 度 
强化 学 习 (DQN) 是 一 种 感知 能 力 极 强 ， 决 策 能 力 又 很 迅速 的 
一 种 算法 。 
本 文 提出 的 方法 主要 优势 在 于 : 
a) 对 交通 信号 控制 系统 的 奖励 机 制 进 行 了 改进 ， 将 所 有 
路 口 共享 奖励 的 机 制 改进 为 每 个 交叉 口 共 享 唯一 的 奖励 。 
b) 通 过 密集 采样 策略 与 多 路 交叉 口 信号 控制 相 结合 ,这 
种 方式 在 一 定 程度 上 提高 了 控制 的 性 能 。 
c) 所 有 的 仿真 实验 都 是 使 用 现在 国际 主流 的 交通 模拟 软 
牛 (Simulation of Urban MObility, SUMO) 来 完成 的 ， 大 大 提高 


了 实验 的 可 靠 性 和 稳定 性 。 

dd) 参数 设置 合理 ， 通 过 多 次 实验 减少 偶然 性 ， 提 高 了 控 
制 系统 的 稳定 性 。 
1 ”交叉 口 模型 的 建立 

本 文 建立 了 下 面 两 种 道路 交叉 口 的 模型 ， 并 给 出 了 优化 


方案 ， 下 面 分 别 介 绍 这 两 种 模型 : 
1.1 单 路 口 模型 的 建立 

本 文 建 立 的 单 交叉 口 的 模型 如 图 1 所 示 , 其 中 Qi(y) 表 示 
等 待 通过 交通 流 i 的 车 辆 数 ， 交 又 口 的 状态 用 PU) E70,1,2,3} 


表示 。 接 着 对 交通 灯 进 行 了 配置 “0” :方向 1 绿灯 ， 方向 2 
红 灯 ;“1”: 方 向 1 为 黄 灯 ， 方 向 2 为 红 灯 ;“2”: 方 向 2 为 绿 
灯 ， 方 向 1 为 红 灯 ;“3: 方 向 2 亮 黄 灯 ， 方 向 1 亮 红 灯 。 
one-way 
light1 
one- way lig 
图 1 单 交 又 口 模型 
Fig.1 Single intersection model 
如 式 (1) 所 示 ， 这 些 由 行动 决定 在 时 刻 t 结束 时 选择 的 
A(,A(b E {0,1}, 用 一 个 二 进 制 变量 表示 :“0” 表 示 继续 , “1” 
表示 转变 。 
P(t+1) =(P(D+A(CD) (1) 
通过 这 些 规则 就 可 以 产生 一 个 严格 的 循环 控制 序列 ， 如 
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1.2 多 路 交叉 口 模型 建立 
在 更 复杂 的 道路 中 研究 DQN 算法 的 性 能 和 可 伸缩 性 大 
规模 场景 下 ， 本 文 将 考虑 线性 网 络 拓扑 结构 加， 如 图 3 所 示 


调查 了 多 路 口交 叉 模 型 结构 有 X 个 路 口 和 双向 交通 流 。 
Intersection 
1 2 3 下 N 
X X5 X9 X4n-3 


X2 一 9 一 一 690 一 es 一 人 9 XAn 


NAT 


X3 X X4n-1 
图 3 线性 网 络 拓扑 结构 模型 
Fig.3 Linear network topology model 
这 时 维度 发 生 了 变化 ， 对 于 刚刚 那 种 单 路 口 的 函数 就 要 


上 
进行 升级 ， 系 统 在 时 刻 t 开始 时 的 状态 P(t) 就 要 用 5 元 组 来 
描述 (Qai(D)，Qw(D)，Qa(D)， Qa(D), Pa (O)(n =1...N). 


下 面 是 多 路 口交 又 模 型 结构 的 一 个 队列 状态 转换 函数 : 
Pa(t+1) = (P(t) + An(t)) G) 
接着 再 来 看 多 路 口交 叉 模 型 结构 的 车 辆 计算 函数 : 
Qni(t+1) = Qni(D +Sni(D — Wni(t) (4) 
Sm 人 表示 在 ! 时 刻 第 个 交叉 口 的 ;方向 出 现 的 车 辆 数 ， 


Wni(D 表 示 在 1 时 刻 第 n 个 交叉 口 的 方向 i 离开 的 车 辆 数 ， 而 
Sn1(D),Sn2(t), Sn3(t), Sn4(W (n=1 .NV), 对 应 从 外 部 环境 接近 交叉 口 
的 所 有 车 辆 有 : 


Sol(tHD=Wa(b (5) 
Sa(t+u)=Weri3(t) (6) 
式 (5) 和 (6) 表 示 在 1 nn 个 交叉 口 1 方向 的 车 辆 

向 东 出 现在 x 时 段 第 (n+D) 个 交叉 口 1 方向 的 车 辆 ;同样 的 ， 
在 1 时 段 通过 第 (n+ 有 ) 个 路 口 3 方 据 i 向 西 出 现在 wu 时段 


第 nn 个 路 口 3 方向 的 车 辆 。 这 样 ， 沿 着 主干 道行 驶 的 车 辆 在 
各 个 车 辆 之 间 产 生 了 高 度 复 杂 的 相互 作用 交叉 口 ， 这 就 给 优 
化 控制 策略 方面 提出 了 额外 的 挑战 。 
2 多 路 口交 通信 号 配 时 的 深度 Q-Learning 算法 
2.1 状态 表示 

在 多 路 交叉 一 条 臂 上 ， 进 入 的 车 辆 在 单元 中 被 离 


散 化 ， 这 些 单元 可 以 识别 其 中 是 否 有 车 辆 。 将 系统 状态 3 作 
为 目标 网 络 和 评估 网 络 输入 到 DQN 中 ， 算 法 环境 状况 被 表 
现 为 路 面 的 离散 化 ， 目 的 是 告知 Agent 车 辆 在 特定 时 间 内 的 


图 2 所 示 ， 队 列 状 态 随 时 间 的 发 展 由 递归 控制 ， 下 面 再 看 它 


位 置 ， 单 路 口 的 输入 为 S=(@ OxP)， 而 多 路 口 的 输入 为 $= (Ow 


的 一 个 路 口 车 辆 计算 函数 。 
Q(t +1),Q2(t+1)= 
(QW + S(t) — Wi(), O21) + $2(1) —W2(7)) O) 


Qi(t) 表 示 t 时 刻 等 待 通过 交通 流 i 的 车 辆 数 。Si(D 表 示 时 
刻 t 出 现在 交叉 口 的 交通 流 i 的 车 辆 数 ,Wi(t) 为 交通 流 i 穿 过 
交叉 口 的 离开 车 辆 数 。 


内 
4 


图 2 状态 转换 队列 


Fig.2 State transition queue 


States:0,1,2,3 
Actions:0,1 


Qnzs Ow Ow;Pr)， 这 个 时 候 维度 就 发 生 了 变化 。 
2.2 动作 行为 
动作 集 是 智能 体 可 用 的 交互 方式 ， 它 被 定义 为 1.1 的 配 
置 , 执行 一 个 操作 就 意味 着 在 一 组 车 道上 将 一 些 交 通 灯 变 绿 ， 
并 保持 固定 的 时 间 。 
2.3 ”奖励 机 制 
在 孙 等 人 乌 的 实验 中 ， 将 车 辆 进入 各 车 道 的 延 为 
d， 所 有 进入 车 道 等 待 的 车 辆 队列 长 度 之 和 设置 为 9， 所 有 进 
入 车 道 的 车 辆 的 等 待 时 间 设 置 为 w， 相 位 的 状态 切换 设置 为 
Pp， 车 辆 的 紧急 制 动 停止 设置 为 e: 执行 动作 后 离开 的 车 辆 数 
设置 为 x， 综 合 各 种 因素 所 得 奖励 公式 如 下 : 
R=kd+k,qt+kwt+kpt+kset+kn (7) 
现在 对 多 路 口 信号 控制 系统 的 奖励 机 制 进行 了 改进 ， 将 
a 每 个 交叉 口 共享 奖励 改进 为 
各 自 路 口 共享 唯 一 的 奖励 ， 公 式 如 下 : 
R [x][y] = R i[x][y]— Cross.car_numfi] (8) 
也 就 是 说 用 前 面 所 有 路 口 累积 奖励 值 减 值 去 前 面 所 有 经 


正 误 时 间 设 置 关 
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过 的 车 辆 的 奖励 值 ， 进 行 i 次 迭代 后 ， 然 后 得 到 了 当前 路 从 上 图 可 以 看 出 作为 深度 神经 网 络 的 输入 ， 输 入 了 nn 个 
的 奖励 值 ， 也 就 是 所 说 的 唯一 奖励 ， 这 样 的 话 每 个 路 口 都 会 ZIDR 向 量 ， 并 传输 给 神经 网 络 层 进行 训练 ， 训 练 结束 后 输出 
拥有 自己 的 奖励 ， 通 过 改进 这 种 机 制 后 ， 本 文 的 实验 结果 数 与 时 间 步 t 相关 的 O-Value 值 。 
据 的 精确 也 会 大 大 得 到 提升 。 A 
2.4 ”Q-learning 更 新 公式 3 ”仿真 实验 
本 文 使 用 下 面 的 更 新 公式 : 本 实验 所 使 用 的 实验 环境 是 国际 通用 的 交通 模拟 软件 
Qsoad) =I1+Y.D p(s,s;a) maxsQ (su bar SUMONO(Simulation of Urban Mobility), 它 是 一 种 开源 , 微观 ， 
ss (9) 多 模 态 的 交通 模拟 软件 ,具体 到 道路 上 每 一 辆 车 的 运行 路 线 
=Tt1+ YELmaxsQ\(str 1, ar )] 都 可 以 单独 规划 , 允许 模拟 由 单个 车 辆 组 成 的 给 定 交通 需求 ， 
奖励 rrr 是 在 si 采取 动作 之 后 才 得 到 的 奖励 ，Qsoa) 是 及 如 何在 给 定 的 道路 网 络 中 移动 ， 示 意图 如 图 5 所 示 。 
st+1 采取 相关 动作 后 得 到 的 有 关 0 值 ， 也 就 是 采取 动作 后 的 3.1 系统 的 输入 : 
下 一 个 状态 ， 折 扣 因 子 y 表示 和 即时 奖励 相 比 ， 未 来 奖励 随 开始 训练 前 ,系统 首先 先进 行车 辆 和 交叉 口 的 模拟 生成 ， 
着 时 间 步 t 的 推进 惩罚 也 越 来 越 小 。 这 个 公式 就 是 通过 即时 如 图 5 所 示 ， 系 统 会 随机 生成 车 辆 和 信号 灯 的 状态 ， 有 具体 的 
奖励 和 未 来 动作 的 折扣 0 值 来 更 新 状态 5; 中 当前 行动 0 值 状态 转换 情况 在 图 2 中 可 以 体现 出 来 ， 而 这 只 是 放大 多 路 
的 规则 。 所 以 , 表示 未 来 动作 隐 含 价值 的 Q'(s+wawm) 是 持 有 sr 网 络 的 中 一 个 交叉 口 的 生成 过 程 ， 具 体 的 多 路 口 整体 生成 示 
之 后 的 最 大 折扣 回报 ， 即 Q"(swzawz) 。 同 样 ， 它 也 拥有 个 意图 如 图 6 所 示 ， 这 样 的 话 一 整个 多 路 口 路 网 的 生成 模拟 过 
状态 的 最 大 折扣 回报 ， 即 Q"Gsasana) 。 这 就 说 明 不 管 Agent 如 程 就 形成 了 。 
何 选择 下 一 个 行动 的 动作 ， 都 不 仅仅 是 基于 即时 奖励 ， 还 要 
基于 未 来 预期 折扣 奖励 ， 在 这 两 个 的 基础 上 同时 进行 。 而 本 
文 在 模拟 过 程 中 ，Agent 不 断 地 迭代 获得 关于 动作 序列 值 的 
知识 。 最 后 ， 希 望 它 能 够 选择 动作 序列 ， 从 而 最 终 获得 更 高 
的 累积 回报 来 获得 最 佳 性 能 。 
2.5 EE 深度 神经 网 络 
本 文 使 用 了 深度 Q-Leaming 算法 , 将 观察 到 的 环境 状态 
st 映射 到 与 动作 相关 的 0 值 ， 并 搭建 一 个 深度 神经 网 络 。 它 
的 输入 是 时 间 步 长 为 t 时 的 ZDR( 环 境 状态 向 量 ), 深 度 神经 网 
络 的 输出 是 来 自 状 态 si 的 作用 2 值 般 地 ， 神 经 网 络 的 输 
入 n”" 被 定义 为 
ni =IDRr， (10) 图 5 单个 路 口 车 辆 模拟 生成 过 程 


忠 表示 时 间 步 长 为 t 时 神经 网 络 的 第 n 个 输入 ，IDRkt 


是 时 间 步 长 为 t 时 向 量 
就 是 系统 的 状态 S= (Qn1, Qm, Qn3, Qn4;Pn)。 而 让 
出 则 被 定义 为 


nW 是 神经 


步骤 t 采 取 第 


本 文 先 给 出 了 单 路 口 


网 络 在 时 间 


二 上 


IDR 的 第 K 个 元 素 ， 


nt = QGoaw0 
步骤 t 的 第 v 次 输出 ， 
Vv 个 动作 的 Q@ 值 。 


本 文 这 里 的 输入 
经 网 络 的 输 


(11) 
Q(st,avt) 是 时 间 


的 DQN 算法 交 自 


给 


场景 ， 后 面 


出 入 个 交集 的 线性 拓扑 结构 的 场景 进行 效果 ， 即 使 在 后 面 一 
种 情况 下 ， 本 文 也 采用 了 一 个 “ 单 agent”DQN 算法 ， 它 有 具 
有 访问 全 局 的 权限 。 这 种 方法 与 “多 智能 体 ” 方 法 不 一 样 的 
是 每 个 个 体 只 有 一 个 智能 体 减 少 交集 的 复杂 性 和 宛 余 度 。 虽 
然 单 智能 体 方法 涉及 更 大 的 状态 空间 ， 但 它 拥有 更 智能 的 控 
制 和 协调 水 平 ， 下 图 4 清楚 地 展示 了 深度 神经 网 络 的 层 与 层 
之 间 的 联系 : 
系统 的 输入 网 
IDR_ 神经 网 络 输出 Q-values 
值 
口 
Q(St,At) 


E 


志 昌 二 


图 4 神经 网 络 训练 机 制 


Fig.4 Neural network training mechanism 


Fig.$5 Single intersection vehicle simulation generation process 
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寻 6 完整 的 多 路 口 路 网 模拟 过 程 
Fig.6 Complete multi-junction road network simulation process 


模拟 完成 后 ， 将 交叉 口 


的 系统 状态 5 作为 目标 网 络 和 评 


估 网 络 的 输入 00， S= (Qn On2, On3, Qn4; Pi OO On2, On3, On4 


表 
的 


输 


3.2 密集 采样 策略 


》 值 较 高 的 四 


示 的 是 多 路 口 的 每 个 交叉 口 四 个 方向 的 来 车 , 而 Pr 则 表示 
车 辆 的 状态 转 和 负 概 率 ， 最 终 将 可 量 = (On, On, On3, OP 
入 到 DQN 算法 中 进行 训练 。 


密集 采样 策略 通过 强化 该 模型 的 实施 和 测试 ， 
[ 候 Agent 在 训练 阶段 的 性 能 , Agent 的 培训 


包括 在 给 定 
在 让 


克 


的 环境 状态 下 找到 最 有 价值 的 行动 。 尽 管 如 此 ， 
| 练 的 早期 阶段 ， 并 不 知道 哪些 动作 是 最 有 价值 的 。 
服 这 一 问题 , 在 培训 开始 时 , Agent 


不 
如 


必 担 心 只 .1 


从 而 提高 
阶段 


为 了 
应 发 现行 动 的 后 果 ， 而 
生 能 表现 ， 最 后 将 Agent 模型 训练 的 超 参数 设置 


下 : 
a) 神 经 网 络 : 5 层 ， 每 层 包 含 400 个 神经 元 。 
b)y 值 : 将 原 有 的 0.25 提升 到 0.75 。 
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录用 定稿 
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c) 奖 励 函 数 : 唯一 奖励 ， 
图 8 的 采样 方法 通过 4000 次 的 训练 收集 了 大 约 25 
个 样本 。 为 了 将 训练 的 次 数 进行 一 个 质 的 提 姑 


y 指数 到 


0.75， 然 后 在 图 


集 


| 的 样本 总 数 高 达 6000 万 多 个 ，1 
集 采 样 方法 能 呈现 一 个 质 的 提升 。 这 种 新 的 奖励 函数 和 抽样 


9 和 10 中 通过 5000 


体 方式 见 2.3。 


0 万 


上 ， 并 且 提 高 了 
次 的 训练 ， 
此 可 见 本 文 的 这 种 密 


采 


策略 的 结合 有 利于 解决 2 值 不 稳定 的 问题 , 大 大 减少 了 未 来 


最 佳 行为 误导 的 可 能 性 。 
3.3 系统 的 训练 过 程 : 
O7 到 


Qi4 只 是 截取 多 路 
的 情况 要 比 这 个 复杂 的 多 ， 通 
Learning 对 神经 网 络 逼 近 器 进行 了 更 新 ， 而 评 
过 更 新 梯度 下 降 和 greed 策略 进行 更 新 的 。 


过 目标 gq 


值 提供 


口交 通 网 络 的 一 部 分 ， 实 际 实验 
基础 ， 而 Q- 


这 两 种 模型 ， 


Q(s,@) 更 加 地 趋 于 稳定 和 
块 中 体现 出 来 。 


交叉 路 口 车 辆 的 一 个 交互 方式 如 图 
交互 方法 是 通过 1.2 中 的 (4)(5)(6) 公 式 进行 实 


晰 地 看 出 本 文 这 种 方法 的 优势 月 
集 采 样 的 策略 ， 大 大 的 增加 了 


从 1.1 和 1.2 可 以 知道 ， 建 立 了 单 路 
通过 这 两 种 模型 的 实验 对 比 ， 可 以 更 力 
ff 在， 本 文 的 实验 通过 结 


占 网 络 则 是 通 


和 线性 拓扑 结构 
[直观 清 


rg 
合作 


Agent 训练 的 数据 集 ， 使 得 


渐进 ， 


具体 的 实验 结果 将 会 在 第 


4 模 


7 所 示 , 其 体 的 


个 


岗 的 ,图 中 右边 


的 数字 表示 在 每 条 路 上 等 待 的 车 辆 的 数量 ， 黑 色 和 矩形 则 表示 


从 周边 道路 进来 的 车 辆 。 这 样 的 话 各 个 车 辆 之 间 就 会 


度 复 杂 的 相互 作用 


， 从 而 进行 协调 稳定 的 训练 。 


图 7 多 路 口 信 号 控制 网 络 的 训练 过 程 


产生 噩 


Fig.7 Multi -intersection signal control network training process 


4 ”实验 结果 分 析 


本 文 将 单 路 口 和 多 路 


的 实验 结果 进行 对 比 ， 
口 训练 得 到 的 累计 负 奖 励 值 ( 轨 ， 从 图 中 情况 来 看 得 到 的 效果 


图 8 为 单 


好 , 它 的 奖励 值 出 现 跨度 过 大 的 现象 ,而且 值 区 间 特 别 的 大 ， 
这 种 情况 下 奖励 值 特别 的 不 稳定 。 


下 面 再 


来 看 改进 2 


二 


度 区 间 相 对 来 说 要 小 很 多 [ 


前 的 多 路 口 
一 奖励 的 实验 结果 ， 如 图 9( 
性 明显 要 弱 于 右 图 ， 而 且 多 路 口 


享 ) 帮 


多 , 而 且 本 文采 用 
单 路 口 的 这 种 情况 ， 


这 也 恰 


密集 采样 的 策 


共享 奖励 和 改进 后 的 多 路 
[图 10( 唯 一 ) 所 示 ， 左 图 的 


的 奖励 值 比 单 路 口 的 奖励 值 
3， 这 就 


说 明了 多 路 口 的 稳定 性 要 


铬 1, 样本 一 个 量 级 要 明显 


交叉 
并 不 
说 明 


口 唯 
的 跨 
大 很 
大 于 


喇 说 明了 本 文 这 种 算法 的 优越 性 和 稳定 性 。 


0 500 1000 1500 2000 2500 3000 3500 4000 
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图 8 


单 路 口 累 计 奖 励 值 


Fig.8 Single intersection cumulative reward value 


纯 ， 等 : 基于 深度 强化 学 习 的 多 路 口 信号 控制 优化 研究 


ChinaXiv 合 作 期 刊 


第 39 卷 第 8 期 


0 1000 


2 数 ” 


4000 5000 


图 9 多 路 口 共享 奖励 值 


Multiple intersections Share bonus values 


0 1000 2000 300 4000 
图 10 多 路 口 唯一 奖励 值 
Fig. 10 Multi-junction unique bonus value 


下 面 将 训练 好 的 三 种 


3| 


络 模型 进行 测试 ,结果 如 图 


11 所 


示 。 图 中 用 
多 路 口 共享 奖励 和 
晰 直观 地 看 出 xl 


Xl 表示 单 交 叉 
惟一 奖励 


的 车 辐 


到 


左右 ,x2 


很 大 程度 上 得 到 了 提升 。 


的 车 辆 排队 长 度 ，x2 和 x3 表示 
排队 长 度 。 从 图 中 可 以 清 
的 排队 长 度 最 长 ， 平 均值 达到 了 将 近 10m 
比 这 种 情况 有 了 一 些 明显 的 提升 ， 而 x3 的 效果 明显 
是 最 好 的 , 它 的 排队 长 度 平均 值 减 小 到 了 将 近 2.5m， 性 能 在 
通过 测试 可 以 直观 地 看 出 本 文 所 提 
方法 的 优势 性 ， 这 种 改进 方法 车 辆 的 平均 排队 长 
的 缩短 ， 说 明 本 文 的 这 利 


度 有 了 显著 


新 的 结合 策略 使 Agent 性 能 得 到 了 


的 提升 ， 也 大 大 增加 了 系统 的 稳定 性 。 


图 11 


Queue length of vehicles at intersections 


Fig. 11 


交叉 口 车 


通 智能 化 、 信 息 化 已 经 是 现 当 


的 排队 长 度 


民 一 种 流行 的 趋势 了 。 


交 
由 于 交通 系统 的 复杂 性 和 动态 性 03， 以 及 控制 范围 不 断 扩 大 ， 


交通 状态 信息 数据 量 也 急剧 增加 ， 使 得 控制 的 复杂 度 呈 指数 


级 增长 , 而 交通 网 络 信号 控制 问题 


区 | 


没有 得 到 有 效 地 解决 。 


本 文 探讨 了 单 路 口 和 更 加 复杂 的 线性 网 络 拓扑 结构 这 两 


种 情况 09， 


直观 地 看 


对 比 结果 能 
叉 口 的 拥 


将 深度 强化 学 习 算法 应 用 到 这 两 种 情况 中 ， 从 


本 文 的 这 种 方法 能 够 有 效 地 减少 交 
堵 情 况 ， 并 大 大 的 节约 了 能 源 消耗 ， 在 效率 和 性 能 


赵 纯 ， 等 : 基于 深度 


i 的 提升 上 起 到 了 很 大 的 作用 。 智 能 体 在 有 限 的 时 间 内 将 
辆 的 全 局 通行 速度 最 大 化 ， 根 据 策略 的 不 同 ， 使 用 强化 学 
不 断 地 修正 其 内 部 参数 ， 最 终 通 过 深度 强化 学 习 发 气 更 加 
地 征 ， 能 够 直接 从 高 维 数据 里 面 学 习 到 有 效 
控制 策略 ， 使 得 智能 体 大 大 提升 车 辆 平均 速度 、 最 小 化 车 
通行 时 间 、 减 少 车 辆 平均 等 待 队长 ， 并 且 能 够 通过 观 
前 交通 状态 ， 选 择 最 优 的 交通 控制 策略 。 从 最 终 的 实验 
来 看 ， 本 文 改进 的 多 路 口 控制 方法 能 够 大 大 地 提升 系统 
| 的 性 能 。 

在 过 去 的 几 年 中 ， 随 着 深度 学 习 的 普及 ， 交 通信 号 控制 
的 强化 学 习 技术 已 经 明显 成 熟 。 未 来 ， 将 在 更 加 复杂 的 道路 
中 研究 算法 ， 将 本 文 的 方法 与 车 载 通信 技术 结合 在 一 起 ， 从 
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而 提供 更 加 细致 的 车 辆 状态 信息 ， 把 全 面 的 实时 信息 与 边缘 
云 计 算 相 结合 ， 最 终 实 现 有 效 地 改善 交通 流 ， 灵 活 地 进行 智 
能 化 交通 控制 。 
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